202310.00530v1 


chinaXiv 


传情 达意 : 


ChinaXiv 合 作 期 刊 
新 媒体 研究 


Al 合成 新 闻 主 播 的 身体 传播 刍议 


赵 遍 
( 华东 师范 大 学 传播 学 院 ， 上 海 200241 ) 


摘 要 : 智能 时 代 下 ， 每 一 次 的 技术 突破 都 影响 着 媒介 的 变化 和 升级 。 人 工 智 能 技术 在 新 闻 播报 领域 中 的 运用 催生 了 AI 合成 
新 闻 主 播 。 它 们 以 全 天 候 不 间断 的 新 闻 播 报 为 亮点 走 进 新 闻 播 音 界 ， 然 而 新 闻 传 播 所 赋予 的 内 容 不 仅仅 是 信息 本 身 ， 更 多 的 
是 传播 过 程 意义 下 的 信息 ， 及 其 情感 共振 意义 下 的 信息 。 传 情 达 意 是 新 闻 主 播 基本 职能 概括 性 地 表达 ， 身 体 动 程 是 达到 这 一 


传播 目的 的 基本 变化 。 
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新 华 社 联合 搜狗 在 2018 年 发 布 了 以 真人 主播 印 浩 为 
原型 的 全 球 首 个 AI 合成 新 闻 主 播 。 他 依靠 “搜狗 分 身 ” 
建 模 技术 ， 将 数字 化 信息 深度 整合 ， 对 合成 主播 进行 人 
脸 特 征 提取 重 构 、 层 语 识 别 、 情 感 迁 移 等 多 方位 组 合 训 
练 最 终 达 到 与 真人 主播 无 异 的 AI 分 和 届 。 这 一 所 谓 的 技术 
“分 身 术 ”5 引起 学 者 们 多 角度 地 观察 与 思考 , 一 时 之 间 ， 
AI 合成 新 闻 主 播 的 “ 离 身 性 ”与 真人 新 闻 主 播 的 “ 具 身 性 ” 
成 为 研究 热潮 ， 同 时 “传情 达意 ”的 感情 交流 等 问题 再 
次 唤醒 学 界 对 于 技术 与 真人 的 身体 对 比 讨 论 ， 尤 其 是 在 
身体 互动 的 非 语言 符号 方面 。 本 文 将 探究 AI 合成 新 闻 主 
播 的 身体 互动 传播 发 展 历 程 与 存在 的 不 足 ， 进 而 为 真人 
主播 提供 可 持续 发 展 的 方向 。 
1. Al 合成 新 闻 主播 发 展 概况 及 特点 

数字 媒体 技术 更 新 迭代 速度 不 断 加 快 ， 人 工 知 能， 


和 内 和 森 . 克 兰 在 《 赛 博 与 空间 》 中 首次 提出 了 “ 赛 博 格 ” 
这 一 概念 。 后 来 这 一 概念 延伸 至 定义 人 的 号 体 性 能 经 由 
机 器 拓展 进而 超越 人 体 限 制 的 新 身体 ， 简 称 “ 电 子 人 ”。 


国内 学 者 彭 兰 在 《智能 时 代 人 的 数字 化 生存 》 一 文中 将 
赛 博 格 的 概念 引入 分 析 AI 合成 新 闻 主 播 : “他 们 都 是 从 


真人 原型 身上 获取 了 面貌 、 声 音 等 元 件 ， 中 性 地 说 ， 这 
些 智能 技术 带 来 的 是 人 的 数字 化 的 重组 …… 这 样 一 种 将 
个 体 元 件数 字 化 并 将 各 种 元 件 重组 方式 ， 也 许 也 成 为 另 
一 种 赛 博 格 - ”这样 一 种 赛 博 格 是 一 种 将 真人 语言 风格 、 
外 貌 中 的 表情 、 长 相 其 至 身材 等 元 素 符 号 进行 数字 化 描 
写 加 以 复制 并 移植 到 新 的 智能 身体 上 。 

人 工 智能 技术 当中 的 人 脸 合 成 技术 和 语音 合成 技术 
日 着 完 善 ， 作 为 赛 博 格 化 的 AI 合成 新 闻 主 播 ， 它 们 在 整 
体 视 觉 上 和 听觉 上 都 已 经 达到 了 几乎 与 真人 主播 相同 的 


大 数据 算法 与 媒介 相互 融合 使 得 AI 合成 新 闻 主 播 应 运 而 
生 。 从 2018 年 以 印 浩 为 原型 的 AI 合成 主播 到 2019 年 以 
新 华 社 女 主播 屈 萌 为 原型 打造 的 国内 第 一 位 AI 合成 女 主 
播 新 小 萌 ， 在 全 国 两 会 期 间 “ 上 岗 ” 并 实现 了 站 立 式 新 
闻 播 报 。 再 到 2020 年 5 月 新 华 社 联合 搜狗 公司 推出 的 以 
新 华 社 记者 赵 琉 微 为 原型 可 以 高 度 还 原 真 人 皮肤 和 肌肉 
驱动 的 全 球 首位 3D 版 AI 合成 主播 新 小 微 。AI 合成 新 闻 
主播 在 技术 上 呈现 出 技术 迷 代 快 、 技 术 细 致 升级 化 的 特 
点 。 三 代 的 AI 合 成 新 闻 主 播 皆 以 真人 播音 员 ， 记 者 的 外 
在 特征 、 语 音 面貌 为 原型 ， 进 行 信息 采集 捕 提 和 搭建 。 
在 新 闻 播 报 中 可 以 做 到 基本 的 文字 到 声音 的 转换 ， 达 到 
与 真人 播音 员 相似 的 音色 和 规范 的 吐字 ， 展 现 与 真人 主 
播 无 异 的 信息 传达 效果 。 
1.1 形象 主体 二 重 性 
20 世纪 60 年 代 ， 两 位 美国 科学 家 曼 弗 雷 德 . 克 林 斯 


效果 。 尤 其 是 在 文本 转化 为 的 有 声 语言 与 动态 人 脸 捕捉 
到 的 图 像 视频 化 配合 下 ， 显 然 达到 了 惊艳 受众 的 通 真 形 
象 要 求 。 在 身体 经 验 中 , 精神 性 的 “自我 ”和 物理 性 的 “ 身 
体 ” 都 是 反思 后 经 由 理性 概念 构造 的 产物 ， 在 这 两 者 生 
成 之 前 的 身体 经 验 场 更 为 本 源 。 在 奖 屏 中 出 现 的 AI 合成 
新 闻 主 播 显然 与 真人 主播 之 间 因 同样 的 “身体 经 验 场 ” 
产生 了 一 种 形象 主体 二 重 性 的 特点 。 
1.2 语音 样 态 模 糊 性 

从 2012 年 左右 ,搜狗 就 开始 针对 其 语音 技术 领域 的 
研发 和 摸索 , 现在 已 逐步 成 为 中 国 最 大 的 语音 识别 引擎 。 
音 高 、 音 强 、 音 色 、 音 长 是 构成 语音 的 物理 基础 四 要 素 。 
AI 合成 新 闻 主 播 融合 语音 识别 技术 和 大 量 的 语音 数据 计 
算 采 集 , 具备 各 大 语种 、 各 声 线 、 音 色 等 语音 合成 的 能 
在 听觉 效果 上 大 约 与 真人 主播 音色 一 致 ， 甚 至 有 很 强 的 
音色 辨识 度 效 应 。 然 而 ,语音 的 生成 来 源 是 人 的 发 音 器 官 ， 
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并 且 它 也 是 社会 交际 的 工具 之 一 。 这 强调 了 语音 的 来 源 
具有 具 身 性 ， 即 人 的 发 音 器 官 。 强 调 了 语音 的 本 质 属性 ， 
也 是 区 别 于 其 他 意义 上 的 属性 ， 即 社会 性 。 因 此 ， 严 格 
意义 上 讲 ，AI 合成 主播 所 发 出 的 声音 属于 一 种 语音 识别 
模仿 ， 不 能 称 之 为 具有 社会 意义 的 语音 。 受 众 的 听觉 接 
收 感官 接收 到 这 样 的 声音 符号 时 ， 其 技术 逐渐 成 熟 可 以 
达到 “以 假 乱 真 ”的 效果 时 ， 其 两 者 语音 样 态 就 出 现 了 
一 定 的 模糊 性 。 
1.3 情感 表达 缺失 性 

当下 的 AI 合成 新 闻 主 播 在 表达 中 的 语言 符号 和 非 
语言 符号 中 都 不 断 进行 了 优化 升级 ， 甚 至 在 单独 的 非 语 
言 符号 领域 也 探索 新 路 径 一 一 2021 年 搜狗 公司 发 布 了 
全 球 首 个 手语 AI 合成 主播 小 联 ， 它 的 手势 的 动 程 基 于 
《国家 通用 手语 词典 》， 播 报 内 容 以 服务 于 听 障 人 士 的 
新 闻 接 收 作为 基本 目标 ， 在 外 部 形象 和 手势 动作 方面 达 
到 逼真 自然 的 效果 。AI 合成 新 闻 主播 的 打造 仍然 基于 
数字 化 的 技术 处 理 ， 这 与 播音 学 当中 播音 的 创作 方法 大 
相 径 庭 : 所 谓 播音 的 创作 方法 是 一 种 创作 主体 对 客体 进 
行 认识 、 感 受 、 理 解 、 归 纳 、 组 织 、 结 构 的 过 程 。 在 这 
个 纬度 上 ， 人 情感 的 生发 并 非 一 种 程式 化 的 机 械 处 理 ， 而 
是 涌 动 着 的 不 断 变化 着 的 感情 起 伏 。”AI 合成 新 闻 主播 
在 现 阶段 依然 处 于 刚刚 起 步 到 功能 优化 的 阶段 ， 它 的 诞 
生 和 所 依照 的 大 数据 恰恰 反映 了 其 情感 表达 上 的 不 足 ， 
因而 在 这 一 方面 考虑 ， 人 机 耦合 也 成 为 目前 人 工 合成 主 
播 应 用 的 主流 。 
2. 中 国 播音 学 播音 性 质 视 阅 下 Al 合成 新 闻 主 播 的 身体 传 
播 


新 闻 播报 具有 立体 性 、 全 方位 的 特点 ， 它 被 看 作 是 
新 闻 宣传 中 的 一 个 重要 组 成 部 分 。 新 闻 播音 的 性 质 分 为 
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这 些 是 人 们 身体 动作 的 变化 ， 也 是 日 常 的 动作 习性 。 
AI 合成 新 闻 主 播 在 这 里 算 不 上 是 真正 的 具备 主观 能 5 
性 的 创作 主体 。 央 视 财经 新 闻 主 播 姚 雪松 在 向 观众 介 
绍 以 它 为 原型 的 AI 合成 主播 姚 小 松 时 会 不 自觉 地 有 着 
“介绍 性 ”的 身体 反应 , 如 伸手 介绍 、 微 笑 等 。 相 比 之 下 ， 
连 线 到 的 姚 小 松 却 略 显 呆板 ， 更 无 任何 体态 语 可 言 。 
2.2 多 质 性 
2.2.1 语 传播 性 质 

当 AI 合成 主播 以 与 真人 无 异 出 现在 荧 幕 上 时 ， 它 们 
最 重要 也 是 最 能 表现 技术 的 一 点 就 在 于 它们 的 言语 传播 。 
言语 传播 前 的 传播 内 容 的 来 源 以 及 它们 如 何 编码 成 声音 
符号 的 过 程 对 研究 AI 合成 新 闻 主 播 的 身体 互动 有 着 内 在 
的 关联 。 威 廉 : 詹姆斯 在 《心理 学 原理 》 中 比较 过 两 个 
概念 “相识 的 知识 ” 
知 的 知识 ” (Knowledge-about ) 。 前 者 依靠 接触 过 程 中 
的 感知 ， 直 觉 反 应 ; 后 者 则 依靠 概念 ， 理 性 判断 。 这 一 
点 也 就 解释 了 为 什么 真人 新 闻 主 播 在 播报 过 程 中 为 什么 
会 自然 性 地 伴随 相应 的 眼神 、 表 情 和 动作 。AI 合成 主播 
没有 自身 主体 与 外 界 的 身体 感知 和 直觉 反 应 ， 它 们 的 言 
语 传播 与 真人 主播 的 “心理 一 生理 一 心理 ”不 同 ， 而 是 
“通过 提取 真人 原型 在 新 闻 播报 中 的 语音 、 层 形 、 表 情 、 
动作 和 形象 等 ， 运 用 智能 合成 技术 和 深度 学 习 等 联合 建 
模 数 据 库 ， 将 所 输入 的 中 英文 文本 非 线 性 自动 生成 相应 
内 容 的 智能 音 视频 。” 外 目前 AI 合成 新 闻 主 播 所 对 应 的 
身体 动作 诸如 肯 眼 、 伸 手 、 脸 部 肌肉 张弛 等 都 是 利用 多 
模 态 合成 模型 基于 语音 驱动 表情 序列 生成 对 应 序列 的 视 
觉 效果 而 已 。 
2.2.2 新 闻 性 
国内 对 “新 闻 ” 这 一 概念 的 界定 普遍 沿用 的 是 学 者 


( Knowledge of acquaintance ) 和 “ 相 


两 大 类 : 创造 性 和 多 质 性 。 其 中 ， 多 质 性 里 又 包含 有 言 
语 传播 性 、 新 闻 性 和 艺术 性 。 这 些 性 质 对 研究 当下 AI 合 
成 新 闻 主 播 的 身体 互动 具有 引领 作用 。 
2.1 创造 性 

创造 性 在 新 闻 播 报 方面 体现 在 创作 主体 发 挥 其 主 
观 能 动 性 ， 生 发 出 一 定 情 感 ， 借 助 情感 的 力量 ， 将 原 
先 文字 排列 的 符号 系统 进行 改造 加 工 ， 搭 建 起 一 套 新 
的 符号 系统 。 关 于 创作 主体 ，AI 合成 主播 和 真人 主播 
在 这 一 方面 有 很 大 的 不 同 。 身 体 ， 是 活 的 身体 ， 其 内 
在 的 控制 、 引 导 过 程 驱 动 着 对 外 界 的 认 知 和 互动 。™ 
身体 是 人 们 了 人 解 世界 的 媒介 ， 人 们 通过 身体 在 世界 上 
获得 各 种 感觉 、 感 知 ， 并 用 身体 去 诠释 和 反映 独特 的 
生命 体验 。 动 作 是 身体 的 语言 ， 我 们 通过 动作 了 解 和 
构建 世界 。 每 天 ， 人 们 会 进行 大 量 的 身体 动作 的 变化 ， 
包括 肢体 姿势 的 改变 、 目 光 的 移动 、 肌 肉 的 调整 等 ， 


陆 定 一 的 定义 : “新 闻 是 新 近 发 生 事 实 的 报道 。” 中 在 
新 闻 播 报 领域 ，“ 新 ”要 求 体现 出 时 代 感 、 新 鲜 感 ，“ 事 
实 ” 要 求 体现 出 新 闻 的 真实 性 和 分 寸 感 ; “报道 ” 则 要 
求 主播 具有 一 定 的 表态 性 。 新 闻 性 的 表达 特征 也 是 引发 
身体 变化 的 基础 ， 比 如 表达 激动 时 语 速 加 快 的 同时 不 自 
觉 地 嘴角 上 扬 ， 放 大 明眸 ; 表 痛 心 悲伤 时 ， 不 自觉 地 皱 
眉 等 。 具 体 再 到 播报 不 同 的 内 容 有 不 同 的 身体 变化 ,因而 ， 
AI 合成 主播 在 深度 学 习 的 过 程 中 是 否 可 以 达到 与 真人 一 
样 精细 的 情感 转换 也 有 待 观察 。 
2.2.3 艺术 属性 

新 闻 播 报 因 其 具有 情绪 泻 染 下 的 二 度 创 作 且 在 听 感 
上 、 视 觉 上 兼 具 美的 享受 , 因而 称 这 一 活动 具有 艺术 属性 。 
保罗 . 莱 文 森 曾 提 出 过 媒介 演进 三 阶段 理论 ， 前 两 个 阶 
段 分 别 为 “技术 作为 玩具 ”和 “技术 作为 现实 的 镜子 ”。 
他 将 最 终 的 阶段 比喻 为 “艺术 ”。AI 合成 主播 已 经 在 技 
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术 层 面 上 达到 玩具 阶段 甚至 镜子 阶段 的 水 平 ， 其 仿真 度 
越 来 越 高 。 然 而 根据 突 发 状况 做 出 有 声 语言 与 自然 的 身 
体 动 程 相 匹 配 直击 心灵 的 传播 却 难以 做 到 。 通 向 “传情 
达意 ”的 艺术 性 依然 道 阻 是 长 。 
3. 传情 达意 : Al 合成 新 闻 主 播 的 未 来 发 展 
3.1 具 身 离 身 智能 互 构 

媒体 置 于 社交 景观 下 ， 带 来 的 是 更 强 的 人 机 互动 和 
群 际 文化 的 交流 。 在 强 连接 下 ， 顺 应 媒介 样 态 发 展 ， 注 
重 人 的 生命 价值 ， 打 造 诗 意 栖息 化 的 生活 可 能 是 未 来 主 
持 传播 发 展 的 一 大 方向 。 在 现实 和 虚拟 的 转换 中 ， 具 身 
离 身 的 智能 互 构 体 现 出 在 互联 网 飞速 发 展 时 代 下 人 类 对 
于 现实 问题 的 反思 和 追求 自我 的 渴望 和 尝试 ， 构 建 了 一 
个 后 现代 的 “解构 重 塑 ” 的 新 闻 传播 逻辑 。 人 机 挑 合 凝 
练 着 对 技术 的 创新 性 期 待 和 对 真实 情感 传达 的 保留 。 但 
是 关于 主持 传播 的 现实 和 虚拟 的 转换 搭配 中 ， 如 何 才 是 
真人 主持 最 佳 的 状态 ， 如 何 才 能 达到 主持 传播 最 大 化 的 
效果 ， 这 些 问 题 还 有 待 进一步 的 探索 和 研究 。 
3.2 精准 定位 受众 群体 

在 日 趋 精 准 导向 下 的 媒体 发 展 态 势 中 ， 新 闻 主 播 在 
类 别 上 还 可 以 做 出 细 化 如 财经 新 闻 、 国 际 新 闻 、 体 育 新 
闻 等 ，AI 合成 新 闻 主 播 在 受众 导向 方面 发 力 不 失 为 一 条 
精准 简明 的 优化 路 径 。 精 准 定位 对 不 同 的 受众 群体 进行 
分 析 以 及 AI 合成 主播 类 型 化 打造 对 未 来 新 闻 传 播 的 发 展 
有 一 定 积极 意义 。 在 新 闻 传 播 方面 ，AI 人 工 智 能 主播 以 
庞大 的 信息 数据 作为 自身 的 优势 支撑 力 ， 在 这 个 基础 上 
不 断 将 其 优势 放大 ， 将 信息 整合 、 传 播 的 单一 任务 逐渐 
朝 着 与 真人 新 闻 主 播 进 行 搭档 、 模 仿 等 深度 学 习 方 向 发 
展 ， 进 而 发 展 为 一 种 多 维度 服务 为 导向 的 传播 方式 。 
3.3 身心 交流 情感 沟通 

“传情 达意 ”浓缩 了 对 新 闻 主 播 的 工作 内 容 和 工作 
性 质 的 要 求 。 在 人 机 耦合 的 思潮 下 ， 理 性 看 待 未 来 AI 合 
成 新 闻 主 播 的 发 展 、 洞 见 人 机 耦合 的 新 闻 传 播 实质 对 于 
未 来 人 工 智 能 走向 及 其 应 用 有 着 重要 作用 。 当 前 ， 人 工 
智能 在 内 容 创作 方面 缺乏 原创 性 的 本 质 是 因为 人 工 智 能 
是 理性 和 “单纯 ”的 ， 而 人 的 内 心 世界 是 感性 和 “复杂 ” 
的 。 在 智能 时 代 ，AI 合成 主播 在 升级 实践 中 集成 的 庞 
大 语 料 可 以 为 新 闻 工 作者 提供 充足 的 信息 保障 。 未 来 ， 
真人 新 闻 主 播 不 仅 是 播报 者 的 角色 ， 而 且 是 分 析 者 、 应 
用 者 的 角色 。 人 机 协同 不 仅仅 表现 在 信息 处 理 流程 层面 ， 
更 多 表现 的 又 是 在 身心 一 体 的 深度 情感 沟通 层面 上 。 
4. 总 结 

就 像 朱 广 权 介 绍 人 工 智 能 时 所 说 : “江湖 行走 三 尺 
剑 六 钓 马 ， 不 会 武术 路 难 行 ， 人 工 智 能 百 种 智 千 种 能 ， 
帮 不 到 人 也 不 成 。” 传 播 的 目的 是 要 满足 人 的 信息 需要 


ChinaXiv 合 作 期 刊 
新 媒体 研究 


和 情感 需求 。 本 文 一 开始 从 AI 合成 新 闻 主播 “传情 达意 ” 
的 硬性 功能 和 人手 ， 顺 着 中 国 播音 学 的 主要 线索 重申 AI 合 
成 新 闻 主 播 身 体 动 程 的 必要 性 , 以 及 其 所 产生 的 新 闻 性 、 
社会 性 影响 。 同 时 ， 立 足 于 中 国 播音 学 中 的 播音 性 质 解 
释 了 传统 新 闻 主 播 的 优势 所 在 ， 为 传统 新 闻 主 播 自 身 提 
供 男 一 条 可 持续 发 展 思路 。 从 男 一 角度 看 ， 结 合 当 下 的 
具 身 理论 ， 扎 根 于 本 体 实践 下 的 中 国 播音 学 也 有 助 于 继 
续 探 索 AI 合成 新 闻 主播 的 深度 发 展 。 什 
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